Fairness in Serving Large Language Models
作者信息:UCB的Ying Sheng, Shiyi Cao, Dacheng Li, Banghua Zhu, Zhuohan Li, Danyang Zhuo, Joseph E. Gonzalez, Ion Stoica
链接:[2401.00588] Fairness in Serving Large Language Models
OSDI 2024
一句话总结概括
在保持公平性的情况下实现最大的吞吐量
创新点或贡献
具体设计
公平性:
- 假如两个客户端都积压了,那么在单位时间内的服务数量需要一样
- 假如一个客户端积压了,那么在单位时间内它的服务数量一定不小于一个不积压的客户端
- 一旦有请求在队列中,服务端不应该空闲